Естественность — один из важнейших аспектов синтезированной речи. Современ-ные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просоди-ческие элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на аме-риканском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связан-ной с конкретной частью предложения. В данном исследовании предлагается вве-дение набора тегов, предназначенных для точного моделирования степени просо-дии, а именно определенная составляющая предложения может быть особо под-черкнута, если она является намеченным фокусом высказывания или ее роль пре-уменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества пе-ред подходами, пытающимися использовать существующие теги ToBI для переда-чи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.
1 - 1 из 1 результатов